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О технологии извлечения знаний 
из информационных ресурсов 
предметной области экспертной системы 


Предлагается подход к созданию технологии извлечения знаний из текстовых электронных ресурсов, 
которые не имеют предварительного семантического описания. Технология предназначена для формирования 
и обновления базы знаний экспертной системы. Подход основан на онтологии и тезаурусе ограниченной 
предметной области. В технологии используется автоматизированная семантическая разметка текстовых 
документов. Указаны инструментальные средства технологических процедур. Данная технология позволяет 
снизить трудозатраты при создании и обновлении базы знаний экспертных систем. 


Введение 


Одной из необходимых компонент экспертных систем (ЭС) является подсистема 
извлечения знаний о предметной области (ПрО) из информационных ресурсов (ИР) с 
целью формирования и актуализации базы знаний ЭС. Здесь выделяются два этапа: 

— предварительная обработка ИР, заключающаяся в отборе фрагментов текстов 
по проблематике Про, их сортировке, фильтрации, обобщении; 

— формализация полученных знаний и их загрузка в базу знаний (БЗ). 

Основным источником электронных документов в настоящее время является 
сеть Интернет. При этом значительная доля интернет-документов не обеспечивается 
семантическим описанием, что резко затрудняет реализацию целенаправленного извле- 
чения знаний по конкретным аспектам Про. Трудоемкость предварительной обработки 
ИР, по различным данным, составляет до 80% всех затрат процесса извлечения зна- 
ний. Вследствие этого остаются актуальными разработки технологических приемов, 
позволяющих повысить эффективность процедур извлечения знаний из заранее не под- 
готовленных информационных ресурсов (ИР). Одним из направлений подобных разра- 
боток является использование онтологий для семантического анализа естественноязы- 
ковых текстов [1-4]. Настоящая статья посвящена указанной проблеме. 

Целью данной работы является разработка концепции автоматизированной тех- 
нологии извлечения знаний из электронных текстовых ресурсов, позволяющей сокра- 
тить трудозатраты на формирование и обновление БЗ ограниченной Про, не снижая 
при этом уровня полноты и достоверности извлекаемых знаний. 

Данная технология должна быть основана на онтологии ПрО; использовать в ка- 
честве исходных ИР тексты электронных библиотек и Интернета, не имеющие семан- 
тического описания; включать в себя в качестве компонентов известные системные 
средства, которые поддерживают или полностью автоматизируют отдельные этапы из- 
влечения знаний. 
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Постановка задач 


Для достижении цели были поставлены задачи разработки и описания следую- 
щих технологических этапов: 

— построения онтологии и тезауруса Про; 

— семантической разметки электронных текстов, из которых будут извлекаться знания; 

— извлечения знаний из размеченных текстов. 


Описание технологии построения тезауруса 
и онтологии Про 


Тезаурус и онтология ПрО строятся один раз при создании ЭС Про и затем мно- 
гократно используются при ее эксплуатации. При необходимости дальнейшего расши- 
рения и уточнения тезауруса и онтологии применяется та же технология, что и при их 
построении. Изложение данной технологии согласуется (в основном) с концепцией 
А.С. Нариньяни [5]. Технология включает семь шагов, реализуемых экспертами и ин- 
женерами по знаниям при поддержке программных средств. 

Шаг 1. Формирование комплекта текстов, покрывающих предметную область (КТПРО). 
Исходными материалами, из которых отбирается КТПро, являются электронные ИР, 
в том числе тексты из специализированных журналов, справочников, отчетов, государст- 
венных и отраслевых стандартов, а также различные информационные материалы, вы- 
ставленные в ПМТЕВМЕТ. Отбор материалов может выполняться по: наименованиям 
журналов, статей; аннотациям; ключевым словам; классификационным признакам. 

В качестве одного из оригинальных средств подготовки КТПрО может исполь- 
зоваться система поиска и анализа информации в Интернете «Галактика ХГООМ» [6]. 
Данная система позволяет пользователю в диалоговом режиме создавать информацион- 
ные портреты реальных объектов по текстовой информации, выполнять сравнитель- 
ный анализ главных тем ИР и делать целевые выборки по заданному набору признаков. 

Шаг 2. Составление словаря Про. 

Эксперт просматривает содержание КТПрО, отмечая те лексические единицы, ко- 
торые являются понятиями ПрО. Помеченные словоформы автоматически накаплива- 
ются, а затем упорядочиваются в алфавитном порядке, образуя словарь ПрО (СЛ). 

Шаг 3. Формирование перечня терминов Про. 

Эксперт фильтрует содержание СЛ, удаляя из него словоформы, связанные с жан- 
ровыми, стилистическими и другими особенностями данной Про. В результате фор- 
мируется перечень слов и словосочетаний, являющихся терминами Про. Данный пе- 
речень обозначим «ТЕРМ». 

Шаг 4. Формирование списка понятий Про. 

Выполняются следующие действия: 

— эксперт выполняет группировку терминов из перечня ТЕРМ. В каждую груп- 
пу включаются термины, выражающие одно и то же понятие (синонимы); 

— эксперт выбирает в каждой группе синонимов один термин, который будет пред- 
ставлять понятие этой группы в списке понятий онтологии (СП); 

— автоматически «представитель» группы синонимов фиксируется в СП и ему при- 
сваивается уникальный ярлык (ТЭГ). Такой же ТЭГ получают соответствующие ему 
синонимы в перечне ТЕРМ. 

В результате устанавливается соответствие между понятиями онтологии и их лек- 
сическими представлениями в тестовых документах Про. 

По сути, совокупность СП и ТЕРМ представляют тезаурус ПрО. 
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Шаг 5. Классификация элементов СП в соответствии с базовыми семантически- 
ми категориями: объект, процесс, событие, свойство, значение и т.п. 

В результате формируется СП «категорированный» (СПК). 

Шаг 6. Установление базовых семантических связей между понятиями СПК. 

Предварительно экспертами формируется базовый набор семантических отноше- 
ний (часть — целое, частное — общее, объект — свойство, причина — следствие и т.п.). 
После этого между элементами СПК устанавливаются отношения из базового набора. 
Данная процедура является трудоемким процессом, требующая от экспертов значитель- 
ных усилий. Остроту проблемы можно снизить, если придерживаться правила целесо- 
образной достаточности, то есть ограничиться самыми существенными для функциони- 
рования ЭС связями между понятиями онтологии. В поддержку данного тезиса можно 
привести позицию А.С. Нариньяни: «Для большинства предметных областей моделью 
предметной области есть онтология с минимальной активной семантикой ...» [5]. 

Процедура установления связей между понятиями в значительной степени опреде- 
ляется выбранным языком описания онтологий. К настоящему времени были разра- 
ботаны и нашли применение различные языковые средства описания документов. 

ХМЕ - (Ежепе Магкар Гапецасе) обеспечивает синтаксис для структуриро- 
ванных документов [7], [8]. 

ХМЕ $света — добавляет к средствам ХМГ, возможности описания конкретных 
типов данных. 

ВРЕ - (Кезоигсе ОезсирНоп Егате\мо!К) позволяет описать простую семантику про- 
извольных ресурсов (понятия и отношения между ними), используя ХМГ синтаксис [7]. 

ВРЕ $сВегта — добавляет к средству ВПЕ возможность описания иерархий понятий. 

ОУ, — (\\МеБ Опю]оэу Гапзиазе) обеспечивает описание онтологий для \\еБ ре- 
сурсов, а также для любых объектов. О\/Т, разработан в трех модификациях (ОУ Г, 
ЕЕ; О\Т, ОГ; ОМ ЕО) [9]. О\МТ может рассматриваться в определенном смыс- 
ле, как расширение КПЕ. 

В качестве системного средства описания и редактирования онтологий может ис- 
пользоваться РКОТЕСЕ [10]. 

В результате формируется описание множества базовых отношений между кон- 
кретными понятиями Про. 

Шаг 7. Добавление к полученным СПК и ОТБ понятий и отношений специфи- 
ческих для данной Про. Кроме того, в перечень ТЕРМ вносятся термины добавляе- 
мых понятий. Результатом является: расширенный список категорированных поня- 
тий (СПКр); расширенное описание отношений между понятиями (ОТБр); расширен- 
ный перечень терминов понятий (ТЕРМр). 

Данные структуры образуют онтологию и тезаурус ПрО (рис. 1). 


ОНТОЛОГИЯ 


Описание Список 
отношений понятий Про Перечень терминов 


(ОТБр) (СПКр) Про (ТЕРМр) 


тезаурус 


Рисунок 1 — Концепция комплекса «Онтология & Тезаурус» 
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Формально установленное соответствие между СПКр и ТЕРМр может быть пред- 
ставлено выражением 


Ус, \с, Е СИК, ЗТ, = (№, ‚м, „.-.м, )..., (1) 


где СПКр — расширенный список категорированных понятий онтологии ПрО; 
Й’. — класс синонимов из перечня ТЕРМ, соответствующих понятию с. 


Семантическая разметка электронных текстов 


Целью данного этапа является автоматизированное внесение в электронные текс- 
ты документов, составленных на естественном языке, формальных признаков отдель- 
ных понятий онтологии Про, характеризующих смысловое содержание документов. 
Семантическая разметка (СР) выполняется над ИР, которые пользователь отобрал как 
источники формирования и обновления БЗ ЭС. СР является подготовительным процес- 
сом для дальнейшего извлечения знаний и выполняется периодически по мере того, 
как возникает надобность актуализировать БЗ ЭС на основе новых ИР Про. 

Можно выделить следующие шаги семантической разметки. 

Шаг 1. Разбиение ИР на фрагменты. 

Фрагментами ИР могут быть разделы документа, страницы и абзацы. 

Цель разбиения документов — облегчение ориентировки пользователя в масси- 
ве текстовых фрагментов, которые будут получены в результате извлечения знаний. 

Для фрагментирования может быть использован набор символов ХМГ, вставляе- 
мых в текст для фиксации информации о его структуре [7], [8]. 

Примечание. Для малых по объему ИР фрагментирование выполнять не целесо- 
образно. 

Шаг 2. Первичная семантическая разметка ИР. 

Данный этап выполняется программно, согласно следующему алгоритму. 


Для каждого понятия с,(1= 1, №) построенной онтологии из тезауруса выбирает- 
ся соответствующий ему класс терминов синонимов И); = 4», | /= 1..1 = 1, №. За- 
тем поочередно выполняется поиск этих терминов в размечаемом ИР. В случае, если 
в некотором фрагменте текста обнаружен хотя бы один термин у, ЕЙ’, т = (К), 
то данному фрагменту присваивается «ярлык» (ТЭГ), соответствующий понятию с,, 
и поиск синонимов у) ‚у, ..., и, продолжается в следующем фрагменте текста. После 
обработки всех фрагментов (поиска синонимов понятия с, ) процесс повторяется для 
очередного элемента онтологии (с, 1). 

В результате применения подобной процедуры ко всем понятиям онтологии, каж- 
дому /-му фрагменту размечаемого текста будет присвоено 1, ТЭГов, Е, е (0, №), 


где №М- количество понятий онтологии. 

Шаг 3. Вторичная (дополнительная) разметка ИР. 

На этом этапе выполняется дополнительная разметка, учитывающая онтологи- 
ческие отношения между понятиями. 

Рассмотрим пример. Допустим, построена онтология ПрО «Оценка и анализ взры- 
воопасности на объектах типа бензоколонка». Допустим, что при построении онтоло- 
гии были зарегистрированы понятия: «Перегрузка персонала» (ШТ) и «Человеческий 
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фактор как источник опасности пожара» (ЧФ), при этом между ними было установ- 
лено и зафиксировано отношение: 

<ПП подкласс ЧФ>, (2) 
то есть перегруз персонала (во всех его формах) является подклассом причин опасности 
пожара, вызванных человеческим фактором. 

Допустим, что некоторый фрагмент размечаемого текста ФрА содержит только 
лексические единицы, соответствующие понятию «ПШ». Тогда при первичной разметке 
ему был присвоен ТЭГ «ПП». При вторичной разметке выполняется выявление всех 
отношений понятия «ГППЬ, в том числе отношение (2). Исходя из логики этого отно- 
шения, ФрА содержит сведения о человеческом факторе и, следовательно, ему будет 
присвоен также ТЭГ «ЧФ». Это позволит при извлечении знаний о «Человеческом 
факторе» выявить фрагмент, содержащий сведения о «Перегрузке персонала». 

Результатом семантической разметки является совокупность фрагментов, каждый 
из которых наряду с исходным текстом содержит набор ТЭГов, соответствующих по- 
нятиям онтологии, содержащимся во фрагменте. Формализованное описание семан- 
тической разметки имеет вид 


«Размеченный текст» = {татк аз}... › (3) 


где / = (1,[), Г - количество фрагментов текста; 
таг тая, = [исходный фрагм., & ТЕГ, }]; 


й = (1,1,), Г, - количество Тегов в /[ „фрагменте. 


ом 
Величина /, может рассматриваться как характеристика информационной содер- 


жательности фрагмента текста. 

Примечание. Первичная и вторичная разметки выполняются автоматически про- 
граммными средствами. При этом, первичная разметка реализуется одним алгоритмом 
для всех понятий онтологии. Алгоритм вторичной разметки должен предусматривать 
столько логических ветвей, сколько типов отношений между понятиями онтологии 
должны быть учтены при разметке. Полученные тексты накапливаются в библиотеке 
размеченных текстов данной ПрО для последующего извлечения знаний по различ- 
ным целевым запросам. Для этого могут использоваться репозитории, среди которых 
наиболее известными являются: ОСТ Кпо\ еде О15соуегу ш РааБазез Агсшуе [11]; 
РЕА Рае Верозйоту [12]; Егедиеп{ Цет её Мшис Рае! Верозйоту [13]; ХМЕ Раа 
КерозИоту [8]. 


Извлечение знаний из размеченных текстов 


Технологию извлечения знаний из различных текстов ПрО можно представить 
в виде следующих шагов: 

1. Формирование запроса для целевого извлечения знаний. 

Для формирования запроса используются не ключевые слова, а понятия онтоло- 
гии Про. При этом целесообразно использовать язык описания запросов ЗРАВОТ, [14]. 

2. Поиск по сформированному запросу в библиотеке размеченных текстов. 

Выбор искомых фрагментов выполняется по критерию соответствия запроса поль- 
зователя и совокупности ТЭГов, описывающих понятийное содержание фрагментов. 

3. Упорядочение найденных текстовых фрагментов. 

Цель данного этапа — подготовить пакет найденных текстовых фрагментов к ви- 
ду, удобному для последующей фильтрации. Упорядочение выполняется автоматичес- 
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ки по одному или нескольким ключевым признакам в зависимости от указания пользо- 
вателя (инженера по знаниям). 

Такими признаками могут быть: понятия онтологии с учетом их важности в за- 
просе; информационная содержательность фрагмента /, (3); дата происхождения ин- 


формационного ресурса и др. 

4. Фильтрация пакета найденных фрагментов. 

Цель фильтрации — удаление повторов, малозначимых фрагментов, ошибочно най- 
денных фрагментов (например, ошибок вызванных омонимией). Этап выполняется 
инженером по знаниям при сервисной программной поддержке. 

5. Первичная формализация знаний, представленных в отфильтрованном пакете 
фрагментов. 

Цель этапа — представить знания из каждого фрагмента в виде совокупности пред- 
ложений на ограниченном естественном языке. По каждому фрагменту высвечиваются 
понятия онтологии в пределах одного абзаца текста. При этом учитываются катего- 
рии понятий (объект, процесс, событие, свойство, значение и т.п.). Инженер по зна- 
ниям формирует предложение в соответствии с правилами ограниченного синтаксиса. 

6. Описание внутреннего представления знаний формализованных предложений 
и загрузка в БЗ. 

Описание данного этапа выходит за рамки данной статьи. Приведем лишь крат- 
чайшее его содержание. 

Инженер по знаниям последовательно в диалоговом режиме выводит предло- 
жения, сформированные в п. 5, и преобразует их в форму, принятую в модели знаний 
ПрО, после чего производится загрузка извлеченных элементов знаний о ПрО в Б3З. 
По каждому элементу выполняется автоматическая проверка повторяемости знания 
и его противоречивости с уже имеющимися знаниями. Результаты протоколируются 
и представляются инженеру по знаниям для дальнейшей интерпретации. Например, 
поступление одного и того же знания из разных независимых источников может по- 
высить доверие к нему; изменение экстенсиональных знаний об одном и том же объекте 
в различные моменты времени может свидетельствовать о динамике ситуаций на объек- 
те; несовпадение сведений об объекте в одном временном срезе ослабляет доверие к 
этим знаниям и требует дополнительной проверки и анализа. Особое внимание необ- 
ходимо уделять изменениям интенсиональных знаний о Про, поскольку это свидетель- 
ствует либо о коренных изменениях в онтологии ПрО, либо о полном недоверии к 
одному из источников сведений. 


Заключение 


1. Предлагается концепция автоматизированной технологии извлечения знаний 
(АТИЗ) из информационных ресурсов (ИР), не имеющих предварительного семанти- 
ческого описания. 

2. АТИЗ является одним из подходов снижения трудоемкости формирования ба- 
зы знаний (БЗ) экспертной системы (ЭС), использующей ограниченную предметную 
область (ПрО). 

3. АТИЗ основана на Онтологии и Тезаурусе Про, которые позволяют связывать 
метаданные ПрО с их лексическими представлениями, что является основой для авто- 
матизированной разметки ИР с использованием метаданных онтологии. Последнее 
обстоятельство, в свою очередь, создает возможность в дальнейшем выполнять целе- 
направленный поиск знаний в ИР не по ключевым словам, а с использованием поня- 
тий Про. 
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4. Практическое значение АТИЗ в том, что она может быть использована как 
один из конкретных методических подходов при разработке подсистемы извлечения 
знаний из ИР, предназначенной для формирования и обновления БЗ ЭС. 
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О.М. Серебровський 

Про технологю виявлення знань з нформац них ресурав 

предметно! област! експертнот системи 

Пропонуеться шдхд до створення технологий виявлення знань з текстових електронних ресурсов, як! 
не мають попереднього семантичного опису. Технолопя призначена для формування 1 оновлення бази 
знань експертно! системи. Шдхд заснований на онтологий 1 тезаурус! обмежено! предметно! област. 
В технологи використовуеться автоматизована семантична розмитка текстових документ!в. Вказан1 
1нструментальн! засоби технологчних процедур. Дана технологя дозволяе зменшити трудовитрати 
при створенн! 1 оновленн! бази знань експертних систем. 


А.М. бегертоу5 Му 

АБош Тесвпо]осу о Кпотедое Ехгасйоп гот ве П\огтайуе Везоигсе5 

о Ехрег Зу$ет Зи ]есё Оотат 

ТБе арргоасВ ю сгеайоп оЁ Кпо\Ледее ехбгасйоп {есрпо!оэу Нот {ех{ @есёготис гезоигсез св Вауе по! 
ргешитагу зетапйс 4езсирНоп 15$ оЙегеа. ТесБпо]оэу 15 ищепде4 юг Ююпише ап4 ирдае оЁ Кпо\ еде Базе 
ОЁ ехрегЕ зузет. Те арргоасВ 15 Базе оп оп®ю1[огу ап4 {езаига$ оЁ фе ИтИе4 заб]есЕ доташ. шп 15 
фесрпооэу йе аиютае4 зетапас тагКир оЁ{ехЕ Чоситен 1$ изе4. ТБе 10015 оЁР4есВпо|ор1са!| ргоседигез аге 
шасаеа. ТВе 1есБпо1озу аПоу\уз 10 десгеазе 1абоиг пиепз1уепез$ а{ сгеайоп ап4 ирдае оЁ кпо\е4эе Базе 
ор ехрем зузет. 
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